一. Python 访问 MySQL
1.安装 pymysql 模块
1) idea
中, import pymysql
, 没有安装的话, option + return
安装
2. 访问 mysql 测试
看看能否打印 mysql
的版本
1 | #!/usr/bin/python3 |
3. 查询 mysql
1 | #!/usr/bin/python3 |
4. 大批量插入 mysql
1 | #!/usr/bin/python3 |
5. 执行事务
关闭 autocommit
1 | #!/usr/bin/python3 |
二. Spark 环境使用 Python 操作 HBase
1. 环境准备
1 | 0.启动hbase集群 |
2.具体代码
2.1 对 hbase 的增删改查
https://github.com/airpoet/bigdata/blob/master/Spark_Project/HBasePythonDemo/BasicPyHbase.py
1 | # -*- encoding=utf-8 -*- |
2.2 将爬虫爬取的网页存入 hbase
https://github.com/airpoet/bigdata/blob/master/Spark_Project/HBasePythonDemo/Crawler2HBase.py
CrawerPageDao.py
1 | #!/usr/bin/python3 |
Crawler2HBase.py
1 | #!/usr/bin/python3 |
三. 使用python实现spark的数据分析
参考这本书, data 等都有下载地址
Apache Spark 2 for Beginners
1.环境准备
首先当前python环境必须安装了这些组件, 由于我的mac上已经装了, 这里就不再装了
1 | 1.numpy |
2.在 mac 环境的 Spark 下
也可以在 Linux 下的图形界面中通过 terminal 操作.
目录建议不要有中文, 否则会有一些警告甚至错误
我的目录在这里: /Users/shixuanji/Documents/资源/Jar包/Spark/spark-2.1.3-bin-hadoop2.7/bin/pyspark
进入我的 iTerm2
, 进入pyspark
1 | #导入sql |